Application de modèles d’apprentissage machine à la classification des macromycètes

Emir Kaïs RIHANI

Introduction et objet de l’étude

Objet de l’étude

  • “Application de modèles d’apprentissage machine à la classification des macromycètes”
    • Application
    • Apprentissage machine
    • Classification
    • Macromycètes

Notion de macromycète

Macromycètes

  • Macro-Mycète = “grand champignon”
  • Le champignon (mycélium) est en réalité quasi-invisible et intimement lié à son substrat
  • La partie visible du champignon est le sporophore

Critère de forme

Critère de couleur

Autres critères morphologiques

Critère écologique

  • Le champignon fait partie d’un écosystème
    • Hétérotrophie, interactions avec l’environnement

Caractéristiques du sporophore

Notion de classification

Classification

  • Classification binaire : 2 classes
    • Comestible ou non ?
    • Définition précise du critère
  • Classification multiclasse : > 2 classes
    • Familles
    • Espèces
    • Syndromes ?

Notion de comestibilité

  • La comestibilité se situe sur un continuum :
    • Excellents comestibles : Tuber spp., Amanita caesaria
    • Comestibles : Agaricus arvensis
    • Comestibles cuits : Morchella spp.
    • Comestibles médiocres : Boletus felleus
    • Toxiques en grandes quantités : Tricholoma equestre
    • Toxiques : Amanita muscaria
    • Mortels : Amanita phalloides, Amanita virosa

Notion de comestibilité

C+ C CC C- T- T T+
Prudent
Gourmand
Toxicologue
  • Critères du “gastronome prudent”
    • Toxiques et comestibles médiocres : à rejeter
    • Comestibles cuits : à conserver (morilles !)

Notion d’apprentissage machine

Généralités

  • Apprentissage machine :
    • La machine “apprend” de manière autonome
    • Amélioration des performances sans intervention
    • Amélioration par l’entraînement

Analyse Discriminante Linéaire

  • Calcul d’un indice synthétique et du seuil de décision
  • Pondération de chaque caractéristique dans l’indice
  • Optimisation de la “résolution” (maximiser \(\mathsf{D^{2}/S}\))
  • Pour valeurs quantitatives ou qualitatives ordinales

Arbres de classification

  • Construction d’un arbre décisionnel :
    • Nœud = test, évaluation d’un critère,
    • Feuille = nœud terminal = prédiction.
    • Test optimal : génère des sous-groupes homogènes

Forêts aléatoires

  • Création d’une multitude d’arbres :
    • Masquage de critères : arbres “à œillères”
    • Décision finale = vote des arbres
  • Plus robuste mais moins interprétable qu’un arbre simple

Optimisation des modèles

  • Indicateur de performance
    • Indice de Youden pondéré (\(\mathsf{J_{w} \geq 0.999}\))
      • Indice synthétique pondérant spécificité et sensibilité
      • 10x plus grave d’accepter un non-comestible
    • Kappa (\(\mathsf{\kappa > 0.8}\))
      • Probabilité de prédiction exacte vs hasard
  • Exploration de l’espace des hyperparamètres
    • Plans d’expériences

Plans hypercubiques latins

  • Plan d’expérience de type Space-Filling Design
    • 1 ligne + 1 colonne = 1 expérience

Carré latin aléatoire (à gauche), optimisé (au milieu), quasi-orthogonal (à droite)

Génération du lot de données

Construction du lot de données

  • 398 espèces de champignons du Nord de la France

    • 25 critères caractéristiques
      • 22 critères qualitatifs
      • 3 critères quantitatifs
      • Espèce, famille, comestibilité
  • 200 spécimens par espèce : 79600 champignons

  • Tirage aléatoire des critères qualitatifs parmi les critères possibles pour chaque caractéristique et chaque espèce

Génération des critères quantitatifs

  • Critères dimensionnels :
    • Diamètre du chapeau \(\mathsf{D_{C}}\),
    • Diamètre du pied (stipe) \(\mathsf{D_{S}}\),
    • Hauteur du pied (stipe) \(\mathsf{L_{S}}\).
  • Proportionnels, liés à la croissance du champignon \(\mathsf{F_{C}}\). \[\left \{ \begin{array}{l} \mathsf{L_{S} = L_{S_{max}}.F_{C}} \\ \mathsf{D_{S} = D_{S_{max}}.F_{C}} \\ \mathsf{D_{C} = D_{C_{max}}.F_{C}} \\ \end{array} \right.\]

Génération des critères quantitatifs : loi bêta

Induction de variabilité

  • Champignons générés “parfaitement proportionnés”
  • Nécessité d’induire des variations (dispersion \(\delta~\))

\[\left \{ \begin{array}{ll} \mathsf{L_{S} = L_{Smax}.F_{T}.\delta_{Ls}} & \mathsf{\delta_{Ls} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05)} \\ \mathsf{D_{S} = D_{Smax}.F_{T}.\delta_{Ds}} & \mathsf{\delta_{Ds} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05)} \\ \mathsf{D_{C} = D_{Cmax}.F_{T}.\delta_{Dc}} & \mathsf{\delta_{Dc} \sim \mathcal{N}(\mu = 1 ; \sigma = 0.05)} \\ \end{array} \right.\]

Induction de variabilité

Induction de variabilité

Classification binaire

Algorithme de classification

  1. Découpage lots d’entraînement/optimisation/évaluation,
  2. Apprentissage sur lot d’entraînement,
  3. Exploration de l’espace des hyperparamètres,
  4. Mesure et modélisation des performances,
  5. Sélection des meilleurs hyperparamètres,
  6. Mesure de performance des meilleurs hyperparamètres,
  7. Sélection des meilleurs modèles, évaluation finale.

LDA

  • Algorithme rapide (\(\mathsf{t_{moy} = 3.34 ~-~ 10.38}\) min)
  • Performances prédictives insuffisantes (\(\mathsf{J_{w} \approx 0.956}\))

Dix premiers facteurs de LDA prédisant la non-comestibilité des champignons

LDA

A.phalloides, “Calice de la Mort”

A.virosa, “Ange de la Mort”

Arbres décisionnels

Sensibilité (à g.) et spécificité (à d.) de rpartCost en fonction de la complexité et du coût

Arbres décisionnels

Indice de Youden pondéré de rpartCost en fonction de ses hyperparamètres

Arbres décisionnels

Arbres simplifiés, optimisant la sensibilité (à g.) ou la spécificité (à d.)

Arbres décisionnels

Structure arborescente complète

Arbres décisionnels

  • Arbres interprétables par l’humain,
  • Performances prédictives et calculatoires correctes. \[\left \{ \begin{array}{l} \mathsf{J_{w_{Rpart}} = 0.9966} \\ \mathsf{J_{w_{RpartCost}} = 0.9943} \\ \mathsf{J_{w_{c5.0tree}} = 0.9989} \\ \end{array} \right.\]

Forêts aléatoires

Sensibilité (à g.) et spécificité (à d.) du modèle Rborist

Classification par espèces

Arbres décisionnels

Performances de rpart, en fonction du paramètre de complexité

  • Performances médiocres (\(\mathsf{\kappa \ll 0.80}\)), limites atteintes

Forêts aléatoires

Performances des modèles Ranger (à g.) et Rborist (à d.)

Forêts aléatoires

Précision Kappa Durée (min)
Ranger 0.99910 0.99909 2.82
Rborist 0.99955 0.99955 15.92
  • Excellentes performances (2 à 4 : 4423 erreurs)
  • Erreurs “assez proches” de la valeur attendue
Matrice de confusion des erreurs de Ranger, (prédictions à g., références en h.)
Amanita.phalloides Amanita.phalloides.var.alba Otidea.alutacea Otidea.onotica Russula.fragilis Russula.silvestris
Amanita.phalloides 11 1 0 0 0 0
Amanita.phalloides.var.alba 0 10 0 0 0 0
Otidea.alutacea 0 0 11 2 0 0
Otidea.onotica 0 0 0 9 0 0
Russula.fragilis 0 0 0 0 11 0
Russula.silvestris 0 0 0 0 1 11

Conclusion

Forces

  • Génération de lots de données synthétiques,
  • Plans d’expériences SFD et modélisation,
  • Performances prédictives de l’apprentissage machine,
  • Viabilité de nombreux modèles, selon la classification,
  • Association R + Rmarkdown/Quarto + Latex.

Limites et perspectives

  • Limites :
    • Volet “terrain” (mycologie, utilisateurs) limité,
    • Rationalisation des critères du lot de données,
    • Pas de tests de robustesse des modèles.
  • Perspectives :
    • Modèles déployables dans de nombreux domaines,
    • Création d’interface utilisateur (Shiny),
    • Génération de rapports automatisés.